本文在完全和时间戳监督的设置中介绍了通过序列(SEQ2SEQ)翻译序列(SEQ2SEQ)翻译的统一框架。与当前的最新帧级预测方法相反,我们将动作分割视为SEQ2SEQ翻译任务,即将视频帧映射到一系列动作段。我们提出的方法涉及在标准变压器SEQ2SEQ转换模型上进行一系列修改和辅助损失函数,以应对与短输出序列相对的长输入序列,相对较少的视频。我们通过框架损失为编码器合并了一个辅助监督信号,并在隐式持续时间预测中提出了单独的对齐解码器。最后,我们通过提出的约束K-Medoids算法将框架扩展到时间戳监督设置,以生成伪分段。我们提出的框架在完全和时间戳监督的设置上始终如一地表现,在几个数据集上表现优于或竞争的最先进。
translated by 谷歌翻译
In this study, we investigate the generalization of LSTM, ReLU and GRU models on counting tasks over long sequences. Previous theoretical work has established that RNNs with ReLU activation and LSTMs have the capacity for counting with suitable configuration, while GRUs have limitations that prevent correct counting over longer sequences. Despite this and some positive empirical results for LSTMs on Dyck-1 languages, our experimental results show that LSTMs fail to learn correct counting behavior for sequences that are significantly longer than in the training data. ReLUs show much larger variance in behavior and in most cases worse generalization. The long sequence generalization is empirically related to validation loss, but reliable long sequence generalization seems not practically achievable through backpropagation with current techniques. We demonstrate different failure modes for LSTMs, GRUs and ReLUs. In particular, we observe that the saturation of activation functions in LSTMs and the correct weight setting for ReLUs to generalize counting behavior are not achieved in standard training regimens. In summary, learning generalizable counting behavior is still an open problem and we discuss potential approaches for further research.
translated by 谷歌翻译
自主赛车是一项研究领域,由于它将自动驾驶算法推向极限,并作为一般自主驾驶的催化剂。对于规模的自主赛车平台,计算约束和复杂性通常会限制模型预测控制(MPC)的使用。结果,几何控制器是最常部署的控制器。它们在实施和操作简单性的同时被证明是性能。然而,他们固有地缺乏模型动力学的结合,因此将赛车限制在可以忽略轮胎滑动的速度域。本文介绍了基于模型和加速度的追求(MAP)基于高性能模型的轨迹跟踪算法,该算法在利用轮胎动力学的同时保留了几何方法的简单性。与最先进的几何控制器相比,所提出的算法允许在前所未有的速度上准确跟踪轨迹。在横向跟踪误差方面,在实验上验证了地图控制器,并胜过参考几何控制器四倍,以高达11m/s的测试速度产生0.055m的跟踪误差。
translated by 谷歌翻译
我们的目标是从单个图像中恢复3D形状和姿势。这是一项艰巨的任务,因为狗表现出各种形状和外表,并且高度阐明。最近的工作提出了直接从图像中直接带有其他肢体规模参数的Smal动物模型。我们的方法称为BARC(使用分类的品种调查回归),以几种重要方式超越了先前的工作。首先,我们修改SMAL形状空间,以更适合表示狗形。但是,即使具有更好的形状模型,从图像中回归狗形状的问题仍然具有挑战性,因为我们缺少具有3D地面真相的配对图像。为了弥补缺乏配对数据的缺乏,我们制定了利用有关狗品种信息的新损失。特别是,我们利用了同一品种的狗具有相似的身体形状的事实。我们制定了一个新型的品种相似性损失,包括两个部分:一个术语鼓励同一品种的狗形状比不同品种的狗更相似。第二个是品种分类损失,有助于产生可识别的品种特异性形状。通过消融研究,我们发现我们的品种损失显着提高了没有它们的基线的形状精度。我们还通过知觉研究将BARC与WLDO进行定性比较,并发现我们的方法产生的狗更现实。这项工作表明,有关遗传相似性的A-Priori信息可以帮助弥补缺乏3D培训数据。这个概念可能适用于其他动物物种或种类。我们的代码可在https://barc.is.tue.mpg.de/上公开提供。
translated by 谷歌翻译
基于深度学习的分子建模的最新进步令人兴奋地加速硅药发现。可获得血清的生成模型,构建原子原子和键合或逐片键的分子。然而,许多药物发现项目需要固定的支架以存在于所生成的分子中,并纳入该约束仅探讨了该约束。在这里,我们提出了一种基于图形的模型,其自然地支持支架作为生成过程的初始种子,这是可能的,因为它不调节在发电历史上。我们的实验表明,Moler与最先进的方法进行了相当的方法,在无约会的分子优化任务上,并且在基于脚手架的任务上优于它们,而不是比现有方法从培训和样本更快的数量级。此外,我们展示了许多看似小设计选择对整体性能的影响。
translated by 谷歌翻译
可逆的神经网络(Inns)已被用于设计生成模型,实现节省内存梯度计算,并解决逆问题。在这项工作中,我们展示了普通二手纪念架构遭受爆炸逆,因此易于变得数值不可逆转。在广泛的Inn用例中,我们揭示了包括在分配和分配的变化(OOD)数据的变化公式的不适用性的失败,用于节省内存返回的不正确渐变,以及无法从标准化流量模型中采样。我们进一步推出了普通架构原子构建块的双嘴唇特性。这些见解对旅馆的稳定性然后提供了前进的方法来解决这些故障。对于本地可释放足够的任务,如记忆保存的倒退,我们提出了一种灵活且高效的常规器。对于必要的全球可逆性的问题,例如在ood数据上应用标准化流动,我们展示了设计稳定的旅馆构建块的重要性。
translated by 谷歌翻译
We show that standard ResNet architectures can be made invertible, allowing the same model to be used for classification, density estimation, and generation. Typically, enforcing invertibility requires partitioning dimensions or restricting network architectures. In contrast, our approach only requires adding a simple normalization step during training, already available in standard frameworks. Invertible ResNets define a generative model which can be trained by maximum likelihood on unlabeled data. To compute likelihoods, we introduce a tractable approximation to the Jacobian log-determinant of a residual block. Our empirical evaluation shows that invertible ResNets perform competitively with both stateof-the-art image classifiers and flow-based generative models, something that has not been previously achieved with a single architecture.
translated by 谷歌翻译